2020 年受邀到台北商業大學授課,當時為了讓同學們了解「資料的層次」,以及“data”、“information”、“file”與“Big data”的意義、相依性與區別,想起緯創IT先進技術實驗室(witlab)創辦人郭二文曾說過,資訊化之前必須數位化,智慧化以資訊化為前提,感覺這些階層並非偶然。當時在準備教材時,便發現原來在 Information Science 領域的知識管理學門已經存在一個金字塔體系來闡釋「資料的層次」,就是 DIKW 金字塔。很奇妙,後來我發現資管系並不教這個,不是很多人明確地知道這個階層關係。為什麼這個階層很重要?因為它揭示了智慧不會憑空而生,有資料(礦)是AI(煉金)的基礎。
圖片來源:The journey from data to knowledge and wisdom
這個詞是縮寫,指 Data(資料)、Information(資訊)、Knowledge(知識)及Wisdom(智慧)。我一直都不是很喜歡用「數據」來翻譯 Data, 原因與意識形態無關,而是因為 Data 英文原意並非特別用於數位型態 (digital format)。
在三十年前就存在「數據機」一詞,它特指處理數位型態 (digital format)的資料交換。雖然人類社會科技日新月異,仍然有相當龐大的資料並非數位型態。所以,我欣然接受 “Big data”翻譯為「大數據」一詞,因為數億筆資料非以數位型態是不能有效率儲存與處理的。
我自己談到數位領域 Data 與 Information 的區分,多半是這樣說明的,Data 是給機器或系統看的(或是神人、大神),對一般人要到 information 階層以上才有意義。
我們在後面會講到“database”與”metadata“,用 DIKW 金字塔就特別容易說明他們的關係:RDBMS(關聯式資料庫) 是儲存”data”的 “information system (資訊系統)”中的一種類型,matadata(元資料、詮釋資料)是一種描述資料的資料,RDBMS(關聯式資料庫) 都有的 schema,就是 metadata 的其中一種。Schema 讓使用者得以較接近語言的方式去調閱 RDBMS 的 Data,且讓回應資料「組成」對人有意義的 “Information”。